#Nano Banana
霸榜第一的 Nano Banana 2 震撼發佈,我依然建議你在 Lovart 裡用它「附實測」
Nano Banana 2昨天發佈了,作為全網對創作者最友好的 AI 原生設計平台,Lovart 依舊是第一時間拿下了Nano Banana 2首發接入,這次升級的核心總結起來就一句話:用 Flash 的極速和 Pro 級的一半價格,實現了近乎持平的頂尖畫質。意味著在大量出圖、高頻生成、短劇搓圖等場景下,你的體驗將會更好很多人可能會問,模型升級了,在那用不都一樣嗎?真不一樣!好模型得配好的工作流,官方介面或原生 Gemini 對話方塊,單次出幾張圖就容易斷上下文。而 Lovart Agent 支援超長上下文,一次性連續生成幾十甚至 100 張圖完全沒問題!為了進一步降低大家的測試與創作門檻,Lovart 這次依然簡單粗暴地支援了「365 無限 0 積分使用(閒時)」,讓你徹底實現搓圖自由。👉 馬上體驗:https://www.lovart.ai/另外老使用者都知道在 Lovart 響應極速的無限畫布上,你可以存放大量資產。生出圖如果不滿意,利用Lovart強大的二次編輯能力不需要重新寫一長串 Prompt 去賭機率,直接用 Lovart 的 精準編輯、文字編輯 或 分層編輯`,可以讓設計真正落地廢話不多說,作為Lovart忠實使用者,針對大家可能最關心的幾個專業場景,我第一時間用 Nano Banana 2 + Lovart 工作流做了一次快速測試。實戰拆解:5個專業級場景,驗證新一代生產力case1:資訊圖與文字排版場景設定: 製作一張解釋咖啡沖煮過程的高級質感資訊圖,並帶有具體的文字標註。進入Lovart在對話方塊,選擇Nano Banana 2模型,直接粘Prompt:生成效果:nb2 的拼寫精準率非常恐怖,英文字母極其清晰。但重點來了——如果你想把英文直接替換成中文呢?以前你得去 PS 裡抹掉重排。在 Lovart 裡,我直接使用了 「編輯文字-Text Edit」 功能:框選圖片,點選「編輯文字」,Lovart 瞬間提取了圖裡的所有文字(提取為右側可編輯圖層)。我直接把 "Step 1: Grind" 改成了“步驟一:研磨”。改完的中文字型,完美保留了原圖的質感、光影和排版位置。 不用摳圖找字型,幾秒鐘搞定了case2:商業級產品 KV 與一鍵樣機場景設定: 為一款全新的護膚品生成一張充滿自然光影的 KV 主視覺,並迅速將其延展為線下公車站牌廣告。直接貼上到Lovart的中文Prompt:生成的護膚品KV圖大家可以看到,nb2 在材質(磨砂玻璃、粗糙石頭)和光影表現上完全是工業級的標準。拿到美圖後,我使用了 Lovart 的 「樣機-Mock up」 功能。隨意找了一張街邊公車站牌的照片只需一點「Mock up」,拖動剛才生成的 KV 就自動匹配了透視關係、自動貼合了玻璃的反光和環境光影。平面設計秒變 3D 效果圖,做品牌視覺的同學可以提前下班了。case3 :電商多 SKU 批次製作場景設定: 擁有一張完美的運動鞋主圖,需要快速製作不同背景、不同配色 SKU 的批次商品圖。直接貼上到Lovart的Prompt:生成效果AI 生圖最大的痛點是圖是死(合併在一起)的。為了做多 SKU,我用了 Lovart 獨家研發的 「編輯元素-Edit Elements」。一鍵點選,Lovart 直接把這張生成的圖“炸開”,鞋子是鞋子,背景是背景。我不僅能隨便更換背景做成不同的節日促銷圖,還能單獨選中鞋子圖層修改顏色。從產出物到可復用範本,Lovart 重新定義了 AI 設計的自由度。具體操作演示:case4:複雜場景的精準微調場景設定:生成一張充滿未來感的賽博朋克複雜都市全景圖。甲方(或導演)突然要求精準修改直接貼上到Lovart的中文Prompt:生成效果:甲方(或導演)突然要求,把畫面正中心那個極具科技感的“巨型全息藝伎投影”,替換成一個“破敗的、長滿發光植物的巨型機械武士雕像”。傳統 AI 生圖可能無法完成進准修改。但在 Lovart 中,面對這張資訊量爆炸的圖,我直接開啟 「精準編輯-Touch Edit」。按住 cmd/ctrl+click,點選畫面中心的那個巨大藝伎投影。Lovart 極其恐怖的底層視覺模型,瞬間理解了這是一個發光的主體,並精準避開了前面飛過的穿梭機(完美識別前後遮擋關係)。我只需在彈出的編輯框裡輸入一句:“把它換成一個破敗的、長滿發光螢光植物的巨型機械武士雕像”。結果令人頭皮發麻:它完美繼承了原圖的透視關係,且沒有破壞那怕一棟摩天大樓的結構和半空中飛行的穿梭機。case5:30張高燃連續分鏡爆肝測試場景設定: 模擬真實的影視/動畫分鏡工作流。我們設定兩位特徵鮮明的特工主角,並在 Lovart 的同一個對話方塊內,不中斷、不重設,一張接一張地連續輸入 30 個不同的劇情提示詞。我們要用光影的劇烈切換(暗夜→明亮大堂→綠色機房→紅色警報→濃煙→夜景逃亡)和極端的動作戲,來驗證穩定性和一致性直接貼上到 Lovart 的 Prompt :生成效果:如果說單抽一張圖看的是畫質,那連續抽 30 張帶有強劇情關聯的圖,考驗的就是畫布快速響應+資產存放方便,隨時可二次編輯,工業級穩定性。在這次測試中,我們經歷了大雨、冷白光電梯、綠色資料流、紅色警報、白色濃煙、最終回到霓虹夜景——足足 6 種極端的光影切換,伴隨著近景特寫、遠景狂奔和爆炸跳樓等大動態動作。然而,在 Lovart Agent 恐怖的超長上下文記憶加持下,Nano Banana 2 猶如神助:男主 Leo 、女主 Mia ,在整整 30 張圖裡死死咬住,沒有出現任何嚴重的特徵遺忘或崩壞!這意味著,你完全可以用它未做一部高_的動態漫,視覺小說甚至是電影宣發的分鏡板。而且 Lovart 多模無縫聯動,無需切換平台,一站式就能搞定圖片➕視訊創作。Lovart 本身幾乎支援所有主流的視訊生成模型,這裡選剛剛生成故事分鏡,生成了一小段視訊,結語測試完 Nano Banana 2 配合 Lovart 的這套組合拳,我最大的感受是:AI 工具正在從玩具階段正式邁入比較靠譜的生產流水線階段。Nano Banana 2 提供了極速、低成本、高保真的原材料;而 Lovart 提供的超大畫布、Agent 長上下文記憶,以及碾壓級的 Text Edit、Touch Edit、Edit Elements 等後處理能力,則為你建造了極其完善的加工車間。如果你也想體驗一下極速高頻出圖 + 指那改那的爽感,建議大家趁著現在的首發福利,去 Lovart 上實操一把。別忘了,閒時段 365 次 0 積分生成,錯過真的很虧。 (AI寒武紀)
Nano Banana 2,洩露!
Nano Banana 2洩露證據被扒:4K生圖,速度離譜。智東西2月25日報導,過去48小時,Nano Banana 2成為AI開發者圈的熱議話題。在海外社交平台X上,關於Google這款最新圖片生成模型(又名Gemini 3.1 Flash Image預覽版)將發佈的帖子層出不窮,4K圖片四處流傳,各種猜測也甚囂塵上。▲社交平台X上關於Nano Banana 2的猜測擷取眾所周知,基於Gemini 3 Pro的Nano Banana Pro在AI圖片生成領域接近“封神”的存在,而Nano Banana(Gemini 2.5 Flash Image的暱稱)去年發佈時也引起業界沸騰。如果Nano Banana 2真的發佈,其相對於Nano Banana Pro在性能和價格上會有多大程度的升級?引起產業高度關注。根據X平台多方自媒體互證,Nano Banana 2為Gemini 3.1 Flash Image預覽版的暱稱,具備4K圖像生成能力、更快速度、價格比Nano Banana Pro更低等特徵。此前2月20日,Google發佈其新一代旗艦模型Gemini 3.1 Pro,通常情況下,Gemini 3.1 Flash及圖像功能有望在近期內發佈。TestingCatalog News是AI領域關注者較多的自媒體,其在今日的推文中稱,Google正在為即將發佈的Gemini 3.1 Flash鏡像預覽版做準備。基於Gemini 3 Flash的Nano Banana 2(Flash)模型已於去年12月進行了測試,但隨後推遲發佈了,或許很快將發佈。他還隨之發佈了一張疑似Nano Banana 2生成的圖片。▲社交平台X上的自媒體發文他引用了另一位X平台網友MarsEverythingTech在2月24日發佈的推文,推文中Nano Banana 2(Gemini 3.1 Flash Image預覽版)的早期測試4K生成圖隨之流出。如下面圖片所示,四張圖片在細節生成和文字渲染等方面看起來表現力不錯。▲社交平台X上的網友發文隨後,一位名為Legit的關注度頗高的開發者發佈推文稱,一個新的匿名模型anon-bob-2已經上線,它很可能是競技場Arena.ai(原LMArena)上的新款Nano Banana Flash模型,由Gemini 3.1 Flash Image驅動。不過智東西登陸Arena.ai後未發現這一模型,可能是測試版已下線。▲社交平台X上的網友發文他還提供了在Google雲的企業級AI平台Vertex AI網站上,發現Gemini 3.1 Flash Image鏡像的證據。如下圖所示,其輸入Gemini-3後下拉頁面出現了Gemini 3.1 Flash Image模型的名字。▲社交平台X上的網友發文另一位X平台使用者稱:“Nano Banana 2(Gemini 3.1 Flash Image預覽版)已以匿名使用者anon-bob-2的身份活躍於競技場Arena.ai的圖像對戰模式,社區目前取得的成果之一:它很棒!”▲社交平台X上的網友發文如果洩露資訊屬實,Nano Banana 2或許會結合前兩代產品的優勢: Flash系列的速度和價格優勢,以及接近或優於 Nano Banana Pro的視覺質量。比如,其生成圖像或許會具備原生4K解析度、更出色的多角色場景處理能力,以及在人體結構、反射、光照等方面更一致的細節表現。據測試人員稱,所有這些都實現了閃電般的生成速度,遠超以速度慢著稱的Pro版。據Stable Diffusion部落格推測,原定於2025年12月進行的(Nano Banana 2)內部測試因質量校準問題而被推遲。現在模型已準備就緒,圖像功能可能就在未來幾天或幾周內發佈。截至發稿,Google尚未就此發佈任何官方公告。結語:頭部玩家密集發新AI圖像生成競賽或升級如果洩露的資訊屬實,Nano Banana 2或許會是一款超高速、支援4K圖像生成、價格比Nano Banana Pro版更低,畫質卻與之不相上下的模型,有望引起產業的新熱潮。但Nano Banana 2未必能建立起絕對的優勢。近一段時間,字節Seedream 5.0、阿里Qwen-Image-2.0、智譜GLM-Image等國產模型相繼發佈,在指令遵循、影像品質、文字渲染等發麵發力,或許都能夠與Google新圖像模型掰腕子,AI圖像生成競賽將再度升級。 (智東西)
十三年佈局,一朝反超!GoogleAI崛起的真實故事
【新智元導讀】2025年8月,一個叫Nano Banana的圖像生成器沖上LMArena榜首,後來Gemini App成為蘋果商店下載量第一,OpenAI內部發出Code Red。但很少有人知道,這場逆襲的起點是2012年太浩湖賭場酒店的一場秘密競拍。此後十三年,Google收購DeepMind、發明Transformer、自研TPU晶片、經歷ChatGPT衝擊和Bard翻車,直到創始人Sergey Brin回歸、核心人才Noam Shazeer歸來,才在2025年完成反超。這是一個關於人才、時間與長期主義的故事。2025年8月的一個凌晨兩點半。Google的AI項目經理Naina Raisinghani正坐在電腦前,準備把DeepMind實驗室的最新成果——一個超快的圖像生成器——上傳到LMArena排名平台。系統需要一個名字才能提交。這個點沒人線上。於是她隨手用朋友給她起的兩個外號拼了一個:Nano Banana🍌。幾天後,Nano Banana沖上排名榜首,在X上成為熱門話題,全球使用者生成了數十億張圖片。Google一度找不到足夠的算力,只能緊急借用伺服器。負責人Josh Woodward後來把這次發佈稱為「成功的災難」。到9月,Gemini App成了蘋果應用程式商店下載量第一。11月,Google發佈了迄今最強的Gemini 3模型,在多項指標上超越ChatGPT,股價大漲。消息傳回矽谷的另一端,OpenAI內部發出了Code Red。如果說人工智慧是一場馬拉松,那麼Google剛剛完成了一次史詩級的衝刺。但很少有人知道,這場逆襲的起點,要追溯到十三年前一家賭場酒店的703號房間。太浩湖的賭注2012年12月初的一天,一場秘密競拍正在美國滑雪勝地太浩湖(Lake Tahoe)的一家賭場酒店裡進行。太浩湖位於加州和內華達州交界處,是北美最大的高山湖泊,擁有藍寶石般的湖面和頂級雪道。《教父2》曾在這裡取景,馬克吐溫曾在此地流連忘返。由於離舊金山灣區只有200多英里,這裡被稱為矽谷的後花園——祖克柏和埃裡森都在此圈地佔山,興建豪宅。但這一天,矽谷的大佬們沒有來滑雪。他們在競拍一個人。秘密競拍的對象,是一家剛剛成立1個月、僅有3名員工的公司——DNNresearch。它沒有任何有形的產品或資產,但追求者的身份暗示出了它的份量:Google、微軟、DeepMind和百度。65歲的Geoffrey Hinton坐在酒店703房間的地板上。他蒼老、瘦削,飽受腰椎間盤的疼痛折磨——不能開車,也不能坐飛機。這位多倫多大學教授是深度學習領域的宗師級人物,從1972年進入愛丁堡大學算起,他已經在這條路上鏖戰了40年。他為競拍設定了規則:起價1200萬美元,每次抬價至少100萬美元。幾個小時後,價格被推到了4400萬美元。辛頓有些頭暈,感覺「我們像是在拍電影」。他果斷喊停,把公司賣給了最後的喊價者——Google。有意思的是,這場4400萬美元競拍的源頭之一,正是來自6個月前的Google。「Google貓」與最老的實習生2012年6月,Google研究部門Google Brain公開了一個叫「Google貓」的項目成果。簡單來說,這個項目就是用演算法在YouTube的視訊裡識別貓。它由從史丹佛跳槽來Google的吳恩達發起,拉上了Google傳奇人物Jeff Dean入夥,還從創始人Larry Page那裡要到了大筆預算。Google貓搭建了一個神經網路,動用了遍佈Google各個資料中心的16000個CPU進行訓練,最終實現74.8%的識別精準率。這一數字震驚業界。但吳恩達在項目臨近結束前激流勇退,投身自己的網際網路教育項目。臨走前他向公司推薦了辛頓來接替他的工作。面對邀請,辛頓表示自己不會離開大學,只願意去Google待一個夏天。由於Google招聘規則的特殊性,時年64歲的辛頓成為了Google歷史上最年長的暑期實習生。這位實習生瞭解了Google貓項目的技術細節後,馬上看到了項目成功背後的隱藏缺陷。他後來說:他們運行了錯誤的神經網路,並使用了錯誤的計算能力。同樣的任務,辛頓認為自己可以做得更好。於是在短暫的實習期結束後,他馬上投入行動。辛頓找來了自己的兩個學生——Ilya Sutskever和Alex Krizhevsky,兩人都是出生於蘇聯的猶太人,前者極具數學天賦,後者擅長工程實現。三人密切配合,建立了一個新神經網路,參加了ImageNet圖像識別大賽。2012年10月,辛頓團隊的冠軍演算法AlexNet以驚人的84%識別精準率奪冠。相比Google貓用了16000顆CPU,AlexNet只用了4顆輝達GPU。學術界和產業界徹底轟動。AlexNet的論文成為電腦科學史上最有影響力的論文之一,目前被引次數已經超過12萬。而Google貓則被迅速遺忘。太浩湖的4400萬美元,給全球的深度學習大神做了一次重新定價。在那個價格面前,圖靈獎的100萬美元獎金看起來都像是零花錢。天下英雄盡入彀中Google在拿下辛頓團隊後再接再厲。2014年1月,Google以約6億美元收購了當年在太浩湖競拍中與之競爭的DeepMind。這家倫敦公司的創始人Demis Hassabis是一個國際象棋神童,4歲開始接觸國際象棋,14歲成為國際象棋大師。馬斯克曾向Google創始人Larry Page推薦了自己投資的這家公司。為了能帶上辛頓一起去倫敦驗證DeepMind的成色,Google團隊專門包了一架私人飛機,並且改造了座椅——因為辛頓的腰椎問題讓他無法乘坐普通飛機。收購完成後,Google的AI版圖上已經聚集了當時最頂尖的深度學習人才。與此同時,一個不太引人注目的項目正在悄悄進行:Google開始自研AI晶片。他們認為語音識別這類應用會需要大量算力,於是設計了TPU(張量處理單元),比傳統CPU和GPU更省電。這一步棋當時看起來並不顯眼。但十多年後,它將成為Google反超的關鍵武器。Transformer:改變世界的論文2016年3月,DeepMind的AlphaGo以4:1擊敗圍棋世界冠軍李世石,震驚全球。這是AI第一次在這種極其複雜的策略遊戲中戰勝人類頂尖選手。那一年,Sundar Pichai剛接任Google CEO不久。他在部落格裡寫道:過去十年是智慧型手機的時代,未來十年將是AI優先的時代。2017年6月,Google的一個團隊發表了一篇名為《Attention Is All You Need》的論文。8位Google科學家提出了Transformer模型——一種徹底拋棄循環神經網路、完全基於注意力機制的新架構。這篇論文開啟了如今的大模型時代。ChatGPT、Claude、Gemini……所有當今最強大的AI模型,都建立在Transformer的基礎之上。截至2025年,這篇論文被引用超過17.3萬次,位列21世紀被引用最多的論文前十。但諷刺的是,8位作者後來全部離開了Google,創辦或加入了其他公司。其中一位叫Noam Shazeer。記住這個名字。ChatGPT的衝擊儘管Google擁有最強的技術積累和最頂尖的人才,但在聊天機器人這條賽道上,它一直表現得異常謹慎。2021年5月,Google發佈了LaMDA——一個基於Transformer的對話大模型。但它只對少數人開放測試,限制極多。2022年8月,Google推出了測試應用AI Test Kitchen,有三個功能:想像它、列出它、聊狗。沒錯,第三個功能只能聊狗。Google的高管和研究員們擔心安全問題。早期模型很容易被誘匯出種族歧視或性別歧視的回答。前Google Brain員工Julia Winn說,Google對這類風險看得比她待過的任何公司都重。這種謹慎讓一些研究員很沮喪,有的選擇了離開。然後,2022年11月30日,OpenAI發佈了ChatGPT。五天內,一百萬人註冊。使用者沒有太多限制,想聊什麼聊什麼。Google內部一些在AI上耕耘多年的員工氣壞了。分析師和投資者開始質疑:Google是不是要錯過科技史上的下一波大浪?翻車2023年1月,Jeff Dean、Demis Hassabis和新加入的機器人專家James Manyika向董事會匯報了打造最強模型的計畫。但Google等不及了,需要先推一個產品出來。2023年2月6日,他們匆忙發佈了基於LaMDA的聊天機器人Bard。發佈會翻車了。宣傳視訊裡,Bard被問到韋伯望遠鏡的問題,回答說它拍了第一張系外行星照片。這是錯的。第一張系外行星照片是2004年歐洲南方天文台的甚大望遠鏡拍攝的。Alphabet股價當天下跌8%,市值蒸發約1000億美元。這是GoogleAI歷史上最黑暗的時刻之一。創始人的回歸差不多同一時間,已經退休的Google聯合創始人Sergey Brin在一個派對上碰到了OpenAI的研究員Daniel Selsam。Selsam問他:ChatGPT這麼厲害,作為電腦科學家你不心動嗎?怎麼不回來全職搞AI?Brin覺得他說得有道理。這位2019年從執行層退休的聯合創始人,開始幾乎每天參與AI工作。他深入瞭解技術細節,研究損失曲線,每周參與前沿AI研究的討論。他還幫Gemini挑毛病,並且參與了關鍵人才的招聘。Brin後來說:任何電腦科學家現在都不應該退休。他還促成了一筆關鍵的交易。Noam Shazeer是2017年Transformer論文的8位作者之一。他後來離開Google,與Daniel De Freitas共同創辦了Character.AI——一家專注於AI角色對話的創業公司。這兩個人還有另一個共同點:他們都是LaMDA的關鍵開發者。2024年8月,一個價值27億美元的交易讓這兩位叛將回歸了Google DeepMind。嚴格來說,這不是一次收購——Character.AI繼續獨立營運,但Shazeer、De Freitas和約30名研究人員回到了Google。Google要回的不是公司,是人。這兩人後來參與領導了Gemini的開發。整合2023年4月20日,Sundar Pichai宣佈了一個重大決定:Google Brain與DeepMind合併,成立新的GoogleDeepMind。這兩個團隊此前一直分頭運作,文化也不相同。Google Brain偏研究,總部在美國;DeepMind偏產品,根基在英國。兩邊合併後產生了不少摩擦。但在ChatGPT的壓力下,Google別無選擇。Demis Hassabis被任命為Google DeepMind的CEO。Jeff Dean轉任首席科學家。與此同時,Google有一個OpenAI沒有的優勢:OpenAI需要融資,而Google可以從自己每年幾百億美元的利潤裡拿錢做研發。2023年底,Google發佈了第一版Gemini。與ChatGPT主要用文字訓練不同,Gemini從一開始就用文字、程式碼、音訊、圖像和視訊一起訓練。這是技術野心更大的方案,雖然開發時間更長,但後來被證明是值得的。諾貝爾獎2024年10月,Demis Hassabis和John Jumper因AlphaFold獲得諾貝爾化學獎。AlphaFold解決了困擾科學界50年的蛋白質折疊問題——僅憑氨基酸序列就能精準預測蛋白質的三維結構。這是AI對基礎科學的歷史性貢獻。對Google來說,這是一個轉折訊號:他們的科學家正在拿諾貝爾獎,而不只是追著競爭對手的尾燈跑。關於這個故事,歡迎收看我認為目前最精彩的紀錄片。《The Thinking Game | Full documentary | Tribeca Film Festival official selection》十年前的伏筆2025年4月,Google發佈了第七代AI晶片Ironwood。每顆晶片可達4,614TFLOPs的FP8性能。最多9,216顆晶片可以互聯成一個超級算力叢集,總性能達到42.5Exaflops——這是當時世界最強超級電腦El Capitan的24倍。比第一代Cloud TPU能效提升了30倍。當Google在2013年開始秘密研發TPU時,沒有多少人意識到這步棋的意義。那時候,Nvidia的GPU還是AI訓練的絕對霸主;那時候,ChatGPT還不存在;那時候,大多數人連大語言模型這個詞都沒聽說過。但十二年後,這步落子終於開花結果。消息傳出:Google正在和Meta談判,要賣給他們價值數十億美元的TPU晶片。Nvidia股價當天下跌7%。成功的災難2025年8月,Nano Banana橫空出世。這個隨手起的名字沖上了LM Arena排名榜首。全球使用者瘋狂使用,生成了數十億張圖片。Google的伺服器一度不堪重負。負責人Josh Woodward把這次發佈稱為成功的災難。到9月,Gemini App成為蘋果應用程式商店下載量第一。月活使用者從7月的4.5億漲到了10月的6.5億。11月,Gemini 3發佈。在多項基準測試中超越ChatGPT。自研的Ironwood晶片大幅降低了AI模型的運行成本。Pichai在12月的內部備忘錄裡寫道:我們以很棒的姿態結束了2025年。想想一年前我們在什麼位置,這個進步令人難以置信。逆襲的邏輯Google用了十三年完成這場逆襲。從2012年太浩湖的4400萬美元競拍,到2014年收購DeepMind,到2017年發表Transformer論文,到2023年經歷Bard的翻車和團隊的整合,再到2025年Gemini 3的登頂和晶片業務的突破。期間有無數次可能走岔的路口:如果2012年百度而不是Google贏下了辛頓,歷史會怎樣?如果8位Transformer作者沒有全部離開Google,會怎樣?如果Sergey Brin沒有在那個派對上被一句話刺激到,會怎樣?如果Noam Shazeer沒有回歸,會怎樣?但歷史沒有如果。尾聲回看這十三年,有一個貫穿始終的主題:人才。太浩湖的秘密競拍搶的是人。收購DeepMind買的是人。Sergey Brin回歸是人的回歸。Noam Shazeer的27億美元交易,本質上還是請人回來。在前沿技術領域,一個頂級學者的作用,往往大過一萬個普通工程師。這就是為什麼Google願意花4400萬美元買下一家沒有產品、沒有收入、只有三個人的公司。這就是為什麼Brin願意從退休生活中走出來。而另一個主題是:時間。TPU晶片從2013年開始研發,到2025年成為競爭優勢,中間隔了12年。Transformer論文發表於2017年,但它的全部威力要到2022年ChatGPT發佈後才被世界看見。深度學習的先驅們從1970年代就開始了探索,卻要等到2012年才迎來產業化的曙光。偉大之所以為偉大,不是因為其橫空出世時的驚豔,而是因為它要在無邊黑暗中,忍受漫長的籍籍無名與不被理解。直到多年之後,人們才能順著這些標尺,感嘆那時群星璀璨,天才輩出。2025年末,AI競賽遠沒有結束。OpenAI後來也發佈了更強的ChatGPT,使用者量仍然遠超Gemini。這場馬拉松還在繼續。但至少,Google已經證明了一件事:即使是科技巨頭,也可以從落後中爬起來。即使是ChatGPT的衝擊,也沒有把Google打倒。只要有人才,只要有耐心,只要有足夠長的時間線,逆襲永遠可能發生。畢竟,Nano Banana這個名字,不過是一個項目經理在凌晨兩點半隨手起的。而它背後,是十三年的佈局——和無數個不眠之夜。 (新智元)
Google2025「復仇爽文」大結局!從至暗時刻到王者歸來
【新智元導讀】年初被唱衰,年底卻直接封神:2025年的Google,把AI圈寫成了一本爽點密集的復仇小說!Gemini 3、Nano Banana、諾獎、晶片、智能體齊上陣:矽谷AI鐵王座還是Google的!回顧2025年,對於Google來說,可謂是一部跌宕起伏的「復仇爽文」。如果說年初外界還在唱衰這家巨頭「大象難轉身」,那麼到了年底,Google用實力上演了一出從被打落神壇,到揚眉吐氣、重回巔峰的好戲。尤其是年底這波Gemini 3和Nano Banana的組合拳,簡直是降維打擊!不僅穩穩佔據了LMArena的榜首,更是在推理和多模態能力上打得對手OpenAI一個措手不及。Google在向世界宣告:矽谷的AI鐵王座,依然姓Google。就在剛剛,GoogleAI掌門人們:首席科學家Jeff Dean、DeepMind CEO Demis Hassabis以及負責技術與社會的SVP James Manyika三位重量級人物聯名發佈了Google2025年度總結。而且也給AI這一年定了一個基調:這一年,是屬於AI智能體、深度推理與科學探索的大成之年。Google這一年把「科研」變成「現實」,在8大領域實現了全面突圍。以下是Google這一年「秀肌肉」的高光時刻:模型層面的「碾壓」:Gemini 3重新定義天花板Google今年的策略非常狠:「下一代的Flash模型要比上一代的Pro模型更強」。從3月發佈的Gemini 2.5到11月震驚業界的Gemini 3,Google徹底解決了推理能力的瓶頸。Gemini 3不僅在「人類終極考試」這種變態難度的基準測試中拿下了突破性高分,更通過Gemini 3 Flash實現了性能與成本的完美平衡。現在的Google模型,既能深思熟慮(DeepThink),又能快如閃電。開發者的「新紀元」:Google Antigravity如果說以前的Copilot只是幫你補全程式碼,那麼Google今年推出的Google Antigravity則是徹底顛覆了軟體開發。這不是工具,而是真正的「Agent(智能體)」。配合非同步程式設計Agent Jules,現在的開發者擁有的不再是一個助手,而是一支隨叫隨到的專家團隊。創意工具的「爆發」:Nano Banana 與Veo在生成式媒體領域,Google今年簡直是「玩嗨了」。Nano Banana Pro和Veo 3.1的出現,讓圖像編輯和視訊生成進入了專業級時代。無論是通過Nano Banana進行原生的圖像修改,還是用MusicAI Sandbox輔助音樂創作,Google正在把頂級創意能力下放給每一個人。科學界的「諾獎收割機」這或許才是Google真正的護城河!2025年,AlphaFold團隊不僅迎來了5周年,更見證了Hassabis等人憑藉它斬獲諾貝爾獎的榮耀。不僅如此,Google員工Michel Devoret亦在今年榮獲諾貝爾物理學獎。從AlphaFold到能解決數學奧賽金牌題目的DeepThink,再到AI科學家,Google證明了AI不僅僅是聊天機器人,更是解開宇宙奧秘的鑰匙。硬核基建:Ironwood與AlphaChip當別人還在搶GPU的時候,Google已經用AI來設計AI晶片了。今年推出的Ironwood TPU專為推理時代打造,而這背後功臣正是AlphaChip設計方法。軟硬一體的實力,讓Google在能效和算力上擁有了難以複製的優勢。具身智能:AI擁有了身體Google不僅讓AI思考,還讓它「動」了起來。Gemini Robotics 1.5和Genie 3的發佈,標誌著通用世界模型的新前沿。AI智能體正在走出螢幕,進入物理世界和虛擬環境,開始真正地理解和操縱世界。全球影響力:預測未來,拯救生命在應用層面,Google的格局打開了。最新的Weather Next 2模型能以驚人的精度預測天氣,洪水預報覆蓋了全球20億人。從NotebookLM的深度研究功能到Pixel 10的AI體驗,Google正在把「黑科技」變成每個人手中的「水電煤」。還有GoogleEarth AI,最先進的地理空間AI模型。安全與責任:走得快,更要走得穩在狂飆突進的同時,Google依然保持了克制。Gemini 3被稱為Google迄今為止最安全的模型,通過了最全面的紅隊測試。隨著模型能力持續增強,不斷升級工具鏈、資源體系與安全框架,以預見並降低潛在風險。Gemini 3正是這一理念的實踐典範:作為Google迄今最安全的模型,它經歷了公司AI模型中最為全面的安全評估體系。更著眼長遠,探索通往通用人工智慧的負責任路徑,著重提升風險應對能力、完善主動風險評估機制,並與更廣泛的人工智慧社群開展協作。2024年是鋪墊的草蛇灰線,2025年才是一切的爆發。這份涵蓋了從底層晶片、核心模型到頂層應用、科學探索的成績單,我們不得不承認:那個熟悉的、令對手窒息的Google,回來了!看來,2026年,好戲才剛剛開始。Google2025年AI年度回顧一月新年伊始,Google在Gemini、Android、GoogleTV和教育工具上推出了一系列更新。推出了由Gemini驅動的更強大的Android助手:提升手機端的AI體驗,讓助手更懂你的需求。公佈了針對三星GalaxyS25系列及更多裝置的Android系統更新:通過系統底層最佳化,讓新裝置更好地運行AI功能。發佈了面向2025年的全新Google教育工具:推出了一系列新功能,旨在助力教師教學與學生學習。在CES上展示了Google TV的最新功能和改進:利用AI技術提升內容推薦精準度,改善家庭娛樂體驗。在Gemini應用中推出了Gemini 2.0 Flash版本供使用者嘗鮮:以更快的速度和更低的延遲,讓使用者體驗新一代模型的響應能力。二月本月重點展示了AI如何在求職和科學研究等領域帶來實質性改變。宣佈Gemini 2.0模型正式向所有使用者開放:全面放開存取權,讓每個人都能使用Google最新的基礎模型。Gemini Code Assist程式設計助手現在免費提供:降低開發者門檻,利用AI免費輔助編寫和偵錯程式碼。推出了一項新實驗功能,利用AI幫助人們探索更多職業發展的可能性:通過分析使用者技能與興趣,智能推薦潛在的職業路徑。發佈了一款專為科學家設計的新型AI系統:該系統能輔助科學家提出假設、設計實驗並規劃研究路線。iOS使用者現在可以在瀏覽網頁時使用Lens搜尋螢幕上的內容:打破應用壁壘,在蘋果裝置上也能體驗「所見即搜」的便捷。三月搜尋中的AI模式(AI Mode)首次亮相,同時發佈了Gemini 2.5和Gemma 3。發佈了當時Google最智能的AI模型Gemini 2.5:在推理能力和多模態理解上取得了顯著突破。推出了Gemma 3,這是可在單個GPU或TPU上運行的最強模型:為開源社區和端側開發提供了極其強大的性能支援。擴展了AI Overviews功能,並正式引入了「AI模式」:在搜尋中處理更複雜的查詢,提供深度解答而非簡單連結。Gemini應用上線了多項新功能,供使用者免費試用:包括更豐富的檔案分析能力和互動方式。推出了利用Gemini進行協作和創意創作的全新方式:在Workspace等工具中深度整合,提升團隊協作效率。四月硬體與雲端算力的大幅升級,為AI時代奠定基石。發佈首款專為「推理時代」打造的TPU Ironwood:在Google Cloud Next大會上亮相,大幅提升AI推理效率。推出了Google Vids的全新AI視訊生成功能:Workspace使用者可利用AI快速生成工作匯報視訊。發佈AI驅動的網路安全防禦系統:利用大模型即時檢測並防禦複雜的網路攻擊。CloudAssist雲端助手能力升級:幫助企業使用者更智能地管理雲資源和排查故障。發佈了Imagen 3的圖像生成增強版:在生成圖片的細節和文字渲染能力上達到新高度。五月Google I/O開發者大會召開,發佈了AI電影製作工具Flow和Veo 3。回顧Google I/O 2025,展示從研究到現實的跨越:總結了AI技術如何全面落地到Google的產品生態中。推出了由Veo 3驅動的AI電影製作工具Flow:為創作者提供好萊塢等級的AI視訊生成和編輯能力。推出了Google AI Ultra訂閱服務:整合了Google最頂尖的模型和功能,一站式滿足專業使用者需求。在購物中引入AI模式,支援虛擬試衣:利用生成式AI讓使用者在購買前看到衣物穿在自己身上的效果。搜尋中的AI進一步進化,轉向提供智能服務:不僅僅是尋找資訊,而是直接幫使用者完成任務。六月開發工具與移動作業系統的智能化革新。發佈Gemini CLI,打造開源AI智能體工具:讓開發者能在命令列中直接呼叫Gemini建構智能體。正式發佈Android 16作業系統:系統底層深度整合AI,提升流暢度與個性化體驗。推出了SearchLive即時互動功能:支援使用者與搜尋引擎進行即時的語音對話和多模態互動。宣佈擴展Gemini 2.5模型家族:推出了針對不同側重領域(如程式碼、數學)的微調版本。展示了Gemini 2.5在高級音訊對話上的能力:實現了更自然、更具情感的語音互動體驗。七月AI功能深入日常,讓相簿和郵件變得更「聰明」。在Gemini中上線了照片轉視訊功能:利用AI將靜態照片瞬間轉化為生動的視訊片段。宣佈搜尋將迎來更高級的AI能力:增強對長尾問題和模糊需求的理解能力。利用搜尋中的AI模式提供學習新途徑:為學生提供定製化的學習計畫和知識點解析。Gmail推出「管理訂閱」新功能:智能識別並一鍵清理不需要的郵件訂閱,淨化收件箱。為Pixel使用者推送了驚喜功能更新(PixelDrop):通過軟體更新為舊款Pixel手機帶來了最新的AI特性。八月硬體盛宴,Pixel 10系列攜手全新AI體驗登場。正式發佈Pixel 10系列手機:搭載最新TPU晶片,是首款為「全天候AI」設計的終端裝置。Gemini圖像編輯功能迎來重大升級:引入更精準的局部重繪和風格遷移能力。宣佈向大學生免費提供GoogleAI工具:投入資金與資源,普及AI教育,賦能下一代創新者。在Gemini應用中上線DeepThink功能:讓模型在回答覆雜問題前進行更深度的邏輯推理。推出了全新的AI驅動航班搜尋工具FlightDeals:智能預測票價趨勢,幫使用者鎖定最佳出行時機。九月Chrome瀏覽器重構,AI開始接管瀏覽器體驗。揭秘Chrome瀏覽器全新AI功能背後的技術:解釋了端側小模型如何讓瀏覽器更快、更安全。利用AI重新構想Chrome瀏覽器:推出智能標籤頁管理、網頁摘要和寫作輔助等功能。介紹了通過SearchLive獲取即時幫助的方式:展示了在旅行、維修等場景下視訊通話式搜尋的威力。Android更新帶來更智能的寫作與分享:輸入法不僅能糾錯,還能根據語境自動補全長句。最新PixelDrop包含Material 3 Expressive升級:UI設計語言進化,帶來更靈動、更具表現力的互動動畫。十月具身智能與醫療AI取得突破,Gemini學會操作電腦。推出了Gemini 2.5 ComputerUse模型:模型現在可以像人一樣查看螢幕、移動游標、點選按鈕,執行複雜操作。發佈Veo 3.1模型並提升Flow功能:視訊生成的連貫性和時長進一步提升,支援更細粒度的控制。發佈專為Gemini建構的GoogleHome裝置:智能音箱和攝影機具備了更強的本地AI處理能力。分享Gemma模型幫助發現癌症治療新路徑:展示了開放模型在生物醫學領域的巨大科研價值。宣佈Nano Banana 模型應用更廣:這款輕量級圖像模型被整合到搜尋、NotebookLM和相簿中,提供極速體驗。十一月年度重磅,Gemini 3橫空出世,開啟智能新紀元。宣佈Gemini 3的誕生:Google迄今為止最強大的AI模型,具備前所未有的多模態推理能力。推出了更專業的Nano Banana Pro模型:在保持速度的同時,大幅提升了圖像生成的藝術質量和逼真度。面向開發者開放Gemini 3:API同步上線,邀請全球開發者共同建構基於新模型的下一代應用。Gemini 3為Gemini應用帶來新功能:普通使用者也能立即體驗到新模型帶來的更聰明、更人性化的對話。Google地圖導航功能通過Gemini獲強力升級:提供更直觀的實景導航和基於語境的地點推薦。十二月(December)以速度極快的Gemini 3 Flash和年度熱搜收官。推出了專為速度打造的Gemini 3 Flash:在保持高智商的同時,將響應延遲降至極低,適合即時應用。Gemini 3 Flash開始在全球搜尋中推出:讓每一次搜尋都能獲得瞬間生成的AI智能摘要。發佈了2025年度熱搜報告:回顧全年搜尋趨勢,展現AI如何重塑人們獲取資訊的方式。Android 16新更新幫助使用者組織資訊:利用端側AI自動整理手機中的通知、檔案和照片。將最先進的Gemini翻譯能力引入Google翻譯:實現了同聲傳譯等級的即時翻譯效果,打破語言障礙。 (新智元)
GoogleAI逆襲背後的頭號功臣
【新智元導讀】Google AI 在 2025 年下半年打了個漂亮的翻身仗,用 Nano Banana 和 Gemini 3 Pro 這兩款殺手級模型,從 OpenAI 手下搶走了大量使用者。背後的功臣,對內聲名顯赫,對外默默無聞。他是誰?他有著怎樣傳奇的故事?在Google最危險的時刻,一位不為外界熟知的中年人在內部臨危受命。他引領團隊開發出爆紅的AI應用,讓GoogleAI業務起死回生,甚至一度打敗 ChatGPT 登頂應用榜。他是誰?他的故事揭示了Google如何用創新和責任心,在 AI 競賽中重奪主動權。GoogleAI逆襲背後的「無名」功臣2025 年 8 月的一個深夜,Google資料中心的警報突然頻繁響起——伺服器負載飆升至前所未有的水平。工程師們開玩笑說,再這麼下去,他們特製的TPU晶片恐怕都要被燒化了。引發這一切的,是Google Gemini 應用中新上線的圖像生成功能「Nano Banana」。這個功能可以將多張照片融合成獨特的數字人偶,意外地在全球引爆了使用者熱情。短短幾天裡,海量使用者湧入嘗鮮,生成的圖片數量迅速突破數十億張,直接把Google的伺服器「烤」得冒煙。Google被迫緊急對 Nano Banana 的使用加以限制,以免後台基礎設施真的撐不住這股熱潮。然而,這場近乎「失控」的走紅非但沒有讓Google高層惱火,反而令整個公司為之振奮——Gemini應用終於一戰成名。在8月底功能推出後的短短一個月內,Gemini 累計生成圖像超過 50 億張,甚至一度超越 OpenAI 的 ChatGPT 躍居蘋果 App Store 下載榜首。而站在這一切背後的操盤手,正是一位在公司內部聲名顯赫,對外低調神秘的中年人:Josh Woodward。42 歲的 Josh Woodward 並非矽谷家喻戶曉的名字,但在Google內部,他幾乎是傳奇般的存在。這位出生於美國中部奧克拉荷馬州的產品經理,2009 年通過實習進入Google,從此一路在各種創新項目中嶄露頭角。早年間他曾參與建立Google最初幾代 Chromebook 筆記型電腦,聯合創立了面向新興市場使用者的「下一個十億使用者(NBU)」計畫,並主導了 Google Pay 支付服務的拓展。豐富的履歷和雷厲風行的作風,使他在內部備受推崇。正因如此,當Google在生成式AI領域感到空前的壓力時,管理層想到了 Woodward。2025 年 4 月,Google AI 戰線進行了一次關鍵人事調整:一直埋頭於實驗室業務的 Woodward 被提拔為 Gemini 應用負責人,接過公司AI戰略的帥印。當時,OpenAI 憑藉 ChatGPT 在 AI 領域風頭正勁,行業專家紛紛預言使用者將從傳統搜尋轉向AI應用。Google痛感自己的搜尋霸主地位受到威脅,加上母公司 Alphabet 一季度股價暴跌約兩成,亟需一場勝利來重振士氣。接任後的 Woodward 深知責任重大,他一手主管 Gemini 應用業務,同時仍領導著Google旗下的新興技術試驗田——Google Labs,肩負起在 AI 競賽中為Google開闢新賽道的雙重任務。「TPU 快被燒化了!」 AI爆款的誕生Woodward 上任後不久,就迎來了大顯身手的機會。這款名為 Gemini 的 AI 應用原本籍籍無名,卻因為一個名叫「Nano Banana」的新功能而聲名鵲起。Nano Banana 最初只是團隊的一次創意迭代:使用者可以上傳多張自己的照片,由AI將其合成為一個獨一無二的數字玩偶形象。沒想到這個充滿趣味的功能一推出就風靡全球,伺服器上一時間請求暴增。據Google AI 基礎架構負責人 Amin Vahdat 回憶:「我們的TPU晶片組當時幾乎要被烤化了!」。團隊不得不暫時為 Nano Banana 設定使用上限來緩解壓力。然而,這次「小危機」凸顯的正是巨大的機會:使用者對個性化AI創作的渴求超出了所有人的想像。Woodward 敏銳地意識到這正是 Gemini 突圍的契機。在他的推動下,團隊連夜擴容後台算力,全力保障這一功能的穩定運行。事實證明,這場硬體「險情」恰是 Gemini 騰飛的起點——到 9 月底,Gemini 應用累計生成的圖像已突破 50 億張。憑藉 Nano Banana 的爆紅,Gemini 應用的月活躍使用者從 3 月的 3.5 億飆升到 10 月的 6.5 億。更令Google揚眉吐氣的是,在 Nano Banana 帶動下,Gemini 在蘋果 App Store 的下載量一舉超越了 ChatGPT,登上免費應用榜冠軍。Google用了不到半年時間,就實現了從 AI 跟隨者到市場領跑者的驚人逆轉。Alphabet 公司的股票也隨之止跌回升,到年底累計上漲了 62%,成為當年美股中表現最亮眼的科技巨頭之一。這一切都令業界震動:Google似乎找回了久違的速度與激情,而推動公司完成這次AI領域「逆襲」的關鍵人物,正是 Woodward。對於 Gemini 的成功,Woodward 保持著難得的清醒與冷靜。他深知,在快速推進 AI 創新的同時,更需要慎重考慮技術可能帶來的負面影響。今年 11 月,Google發佈最新的大模型 Gemini 3,引發行業轟動。在接受媒體採訪時,Woodward 興奮地表示「我從來沒有像現在這樣覺得工作充滿樂趣」 ——AI 模型的強大能力讓各種天馬行空的產品創想成為可能。但身為掌舵者,他也時刻警惕著技術的雙刃劍。此前,他就在紅杉資本的播客節目中坦言,AI 的進步正處於一個足以「改變時代」的關鍵節點,這種改變「可能是向善的,也可能是適得其反的」。事實證明,Nano Banana 功能在爆紅的同時也一度引發爭議:有使用者使用它根據提示詞合成援非人道主義場景的形象時,生成的畫面卻是身著便服的白人女性周圍圍繞著非洲黑人兒童,引來種族刻板印象的批評。這類爭議讓 Woodward 更加意識到,AI 產品在追求創新的同時絕不能忽視社會責任。他要求團隊迅速最佳化演算法,避免再次出現類似偏見輸出,並強調任何 AI 新功能上線前都要經過更嚴格的審查。Google內部也在他的倡議下設立專門機制,評估熱門AI應用可能引發的道德和信任問題,力求在保持高速創新的同時守住「不會傷害使用者信任」的底線。Google在制定AI產品戰略時相當克制理性。Woodward和他的上級、DeepMind CEO 哈薩比斯(Demis Hassabis)商議後,有意避開了時下火熱但容易引發倫理爭議的「AI情感伴侶」方向,而是堅持將Gemini定位為提升工作效率的超級工具。Google內部給Gemini制定的考核指標並非使用者粘性或時長,而是每天幫助使用者完成了多少實際任務。這樣的取捨背後,是Woodward對於AI角色邊界的深思——AI最重要的價值應在於賦能人類,而非讓人沉迷於虛擬陪伴。當下,生成式AI正加速滲透進人們生活的方方面面,海量AI生成內容充斥網路,真偽難辨。Woodward比任何人都清楚,Google必須加倍謹慎,既要跑贏競賽,又不能因魯莽而丟掉使用者多年來對Google品牌的信任。因此,他在業務衝鋒的同時,以身作則地為團隊敲響警鐘:「我們正處在一個技術巨變的關口,這種變革將影響好幾代人。身處這個位置,我們必須確保它被用來促進善意,而非滋生危害。」敢想敢幹 「讓他們盡情去做」Gemini應用的成功並非偶然。事實上,Woodward上任之前就在Google內部孵化出多款頗具前景的AI產品。其中最出名的,當屬AI筆記助理NotebookLM。它最初只是Google Labs團隊一個默默無聞的試驗項目——資深產品經理Raiza Martin利用工作之餘的「20%時間」開發了一個名為Project Tailwind的原型:它可以讓使用者上傳文件、PDF甚至視訊,然後由AI提煉要點、生成摘要或見解。Woodward對這個創意一眼相中,大力支援團隊繼續打磨。為了把這個項目做成真正貼近使用者需求的產品,他大膽採取了一系列「非常規」舉措,打破了Google內部的慣例和層層壁壘。首先,Woodward從外部網羅來一位出人意料的「臨時盟友」——科技作家史蒂文·約翰遜(Steven Johnson)。Johnson在業界小有名氣,出版過多本暢銷書,卻從未在任何公司任職過。2022年,Woodward讀到Johnson關於AI與創意的文章後深受啟發,竟主動發出邀請,請他以訪問學者的身份加入Google Labs,共同探索如何用AI增強人類的創造力。對於這種「不按常理出牌」的合作模式,Woodward的想法很簡單:「讓四五個工程師和一個真正的作家碰在一起,看看會產生什麼火花」。在他的牽線下,Johnson開始兼職參與Project Tailwind,為團隊提供作家視角的輸入,分享職業寫作者整理資訊的工作流。工程師們在一旁觀察他的使用習慣,不斷改進產品功能。一段時間磨合後,Johnson深深投入其中,最後乾脆接受了Woodward的邀請轉為全職,擔任NotebookLM團隊的「創作總監」。這樣「破圈」的人才能夠加盟Google,靠的正是Woodward勇於創新用人的魄力。不僅如此,為了快速完善NotebookLM,Woodward還鼓勵團隊主動擁抱外部使用者社區的力量。在產品開發早期,團隊希望收集真實使用者的反饋來改進產品。按常規,Google內部有自己的論壇和郵件列表,可以用來做封閉測試。但年輕的產品經理Raiza更傾向於直接去主流社群與使用者互動,她選擇了當下開發者和AI愛好者云集的平台——Discord聊天伺服器。這在當時引起了一些內部爭議:畢竟Google一向偏好使用自家產品,很多高管甚至不知道Discord為何物。有管理人員質疑:「為什麼不用Google Meet會議或者內部群組?」對此,Woodward全力支援Raiza的提議。他乾脆對團隊撂下一句:「讓他們盡情去做吧(Let them cook)!」在他的力挺下,NotebookLM項目組順利搭建了Discord伺服器,與第一批種子使用者直接交流。這種開放姿態很快收穫了回報:借助社群力量,NotebookLM在打磨階段就吸引了大批AI發燒友的關注,產品不斷根據反饋迭代升級。到2024年底,該Discord社區已匯聚了超過20萬名成員,成為Google史上最活躍的產品使用者社區之一。很多團隊成員坦言,如果沒有Woodward頂住內部壓力允許他們「破例」用第三方平台,這款產品不可能進步得如此快、如此好。終於,2023年5月,Woodward帶著打磨成型的NotebookLM走上Google一年一度的I/O開發者大會舞台。在Google雲CEO托馬斯·庫裡安的主題演講結束後,Woodward出人意料地現身台上。他先是賣了個關子,向台下觀眾介紹說:「我們在幾周內用五名工程師拼出了一個新點子,叫作Project Tailwind。我自己的母校俄克拉荷馬大學師生也參與了內測。大家想看看它能做什麼嗎?」隨後,他現場操作筆記應用,匯入幾篇文件。不出幾秒,螢幕側欄便自動生成了這些材料的關鍵詞和延伸提問。他隨手點開「引用來源」按鈕,興奮地介紹道:「這個功能是我最喜歡的——AI會標註出每條答案背後的出處。 」短短幾分鐘的演示贏得滿堂喝彩。NotebookLM就此進入公眾視野,並在隨後數月向廣大使用者開放試用,上線不久便廣獲好評。Google很快為其加入了支援音訊、視訊內容的分析功能,讓這款AI筆記助手更趨完善。NotebookLM的成功不僅證明了Woodward識人用人的獨到,也驗證了他推動內部「減小阻力」所取得的成效。在官僚體系龐大的Google公司,許多創新想法往往困於流程冗長、部門掣肘。為此,Woodward在Google Labs內部設立了一個特別機制,員工如果遇到體制上的「絆腳石」可以提交一個代號為「Block」的工單,由專門團隊迅速協調資源排障。NotebookLM項目在籌備上線時一度面臨算力不足的問題,Woodward 便通過這一機制火速調撥了更多TPU算力支援,確保產品性能萬無一失。據團隊工程師回憶,有了「Block」系統的保駕護航,他們再也不用為內部審批耗費精力,可以心無旁騖地專注於產品研發。「有這樣一位負責人幫我們清理那些惱人的障礙,我們才能真正將精力放在使用者身上。」Google Labs 的一名軟體工程師 Usama 感嘆道。小細節,大作為Woodward 領導風格中另一個令人稱道的特點,是他對「細節決定成敗」的高度重視。擔任 Gemini 和 Google Labs 負責人後,他發起了一項名為「Papercuts」(紙割傷)的內部計畫,專門蒐集和快速修復那些雖然不至於致命、但影響使用者體驗的「小傷口」。在 Woodward 看來,這些細枝末節的改進往往最能打動使用者,卻常被大公司忽視。有使用者抱怨在 Gemini 聊天時無法中途切換大模型而不重新開始對話,Woodward 知道後立刻催促工程師最佳化。不久他就在自己的 X 帳號上驕傲地宣佈:「Papercut 已修復:現在你可以在 Gemini 應用的對話中途切換模型而無需重新啟動會話了。」這條動態下面,許多使用者紛紛留言點贊,感謝他傾聽並解決了困擾自己的「小問題」。事實上,親自聆聽使用者聲音、持續打磨產品細節,幾乎已經成為 Woodward 工作的日常。身為公司高管,他卻常常一頭紮進社交媒體的一線陣地,在 X 和 Reddit 上直接回答使用者提問、收集吐槽反饋。業界人士形容這在科技巨頭中相當少見——一位負責核心產品的副總裁竟然親自在論壇上當「客服」,甚至把使用者直言不諱的批評意見轉發給開發團隊要求改進。但在 Woodward 看來,這正是產品經理應有的擔當:「使用者願意花時間告訴我們問題出在那兒,那就是在幫我們變得更好。」NotebookLM 團隊一名前設計師 Jason 回憶,Woodward 經常帶著從使用者社區蒐集的反饋走進會議室,對大家說「看看,這是使用者真正關心的,我們能做點什麼?」Jason 由衷佩服地說:「這種對終端使用者的承諾和執著,我在其他領導身上幾乎沒見過。」Woodward 平易近人的人格魅力也在這些「小事」中展露無遺。同事們常提起他的一個招牌舉動:當有團隊成員因為線上評論的批評而情緒低落時,Woodward 會故作誇張地哈哈一笑,用他那帶著中西部口音的爽朗笑聲打趣道:「走,一起回覆網友去!」據說,沒有人能抗拒他這富有感染力的笑聲——緊張的氣氛瞬間就被他化解了。前同事 Caesar Sengupta 曾打趣地評價:「我從沒見他對誰發過火。」這位與 Woodward 共事多年的Google前高管甚至半開玩笑地放言:「照這樣下去,他早晚會成為Google的 CEO。」雖然只是戲言,但也從側面反映出 Woodward 在Google內部的威望和人望之高。從奧克拉荷馬小鎮少年 到Google中流砥柱在成為Google AI 戰略幕後英雄之前,Josh Woodward 的人生軌跡並非典型的「矽谷精英」路線。他 1983 年出生於美國奧克拉荷馬州一個普通家庭,自幼成長於埃德蒙德(Edmond)小鎮。從小勤奮好學的 Woodward 考入了家鄉的俄克拉荷馬大學主修經濟學,2006 年以優異成績畢業,並被評為年度傑出畢業生之一。大學期間,他對公共事務和全球視野表現出濃厚興趣,積極參加各類學生領導力項目。畢業後,他獲得獎學金遠赴英國牛津大學深造,攻讀比較政府學,並於 2009 年拿下碩士學位。在牛津,他把研究重點放在美國軍事及經濟援助對外國民主處理程序的影響上——這一少有人問津的題目透露出他對「科技與社會」「力量與責任」等宏大命題的早期思考。也許正因如此,當他回到美國踏入科技行業時,能始終從更長遠的角度審視手中的技術。2009 年,Woodward 以產品管理實習生的身份加入Google,很快顯露出過人的敏銳和領導才能。他樂於接受具有挑戰性的任務,勇於從零開始打造新項目。在Google工作最初十年裡,他涉足多個前沿領域,從硬體裝置到新興市場,無不留下自己的印記:他參與了 Chrome 作業系統和首批 Chromebook 筆記本的開發;自告奮勇加入公司新成立的「NBU」計畫,去研究和服務印度等地第一次觸網的海量使用者,並因此被視為NBU項目的奠基人之一;後來又接手 Google Pay 的國際化拓展業務,為數億使用者帶去便捷的移動支付體驗。這些橫跨軟硬體、全球市場的經歷,讓 Woodward 對「如何讓技術普惠大眾」有了深刻理解。這種理念也貫穿在他之後負責的AI產品中——無論是 NotebookLM 還是 Gemini,他始終強調的是為使用者創造真正有用的價值,而不僅是炫技式的噱頭。Woodward 還有一個鮮明的個人標籤:酷愛閱讀且樂於分享。熟悉他的人都知道,他的辦公室和家中總是堆滿書籍,從商業傳記到科幻小說無所不讀。據說Google高管層每每想找本好書讀時,第一個諮詢的對象就是 Woodward。他至今堅持寫閱讀筆記,早年在 NBU 團隊時便每周編輯一封內部通訊,內容簡潔而發人深省,當時這封通訊在Google內部意外走紅,許多人聞訊後紛紛來信請求訂閱。如今儘管工作繁忙,他仍保持著每季度給團隊和朋友們寫一封「Josh 通訊」的習慣,分享自己近期讀到的有趣見解。身邊同事戲稱他是Google的「行走書單」。更難能可貴的是,Woodward 不僅博覽群書,還善於將知識活用於工作決策中。據前文提到的 Raiza 回憶,在 NotebookLM 項目開發過程中,Woodward 曾特地發給她一篇論文,探討使用者究竟能否信任AI聊天機器人的答案。這讓 Raiza 意識到,領導關心的不僅是產品功能實現,更是產品能否真正贏得使用者信任。類似的故事不勝列舉——他會建議團隊工程師閱讀科幻小說,從中獲得對未來技術的想像力;也會邀請人文學者來交流,提醒大家科技創新不能脫離人文關懷。這些細節都體現出 Woodward 作為領導者的深度與溫度。變革時代的掌舵者2025 年行將結束之際,Google憑藉在AI領域的一連串突破重新煥發了生機:從 Gemini 3 模型的橫空出世,到一個又一個「現象級」應用的推出,整個公司一掃年初的低迷,士氣高漲。CEO 桑達爾·皮查伊(Sundar Pichai)在全員大會上興奮地表示:「過去這一年的進展真是令人難以置信——Google各個團隊都在以前所未有的速度推出新功能。」而站在這股 AI 浪潮中央、備受矚目的,正是 Josh Woodward 和他所率領的團隊。展望 2026 年,業界對Google寄予厚望,期待這家科技巨頭繼續以 Responsible AI(負責任的人工智慧)的姿態領跑。在聚光燈之外,Woodward 依然埋頭忙碌著:既要帶領兩個部門創新競速,又要謹慎把關每一項技術的潛在影響。然而,這位久經考驗的「Google AI 掌櫃」臉上沒有焦慮,有的只是對未來的堅定信心和一絲藏不住的興奮。在最近的一次採訪中,當被問及如此高壓的工作如何堅持時,他爽朗一笑:「因為從未像現在這樣好玩啊!」對於熱愛挑戰的他來說,這或許正是真正的樂趣所在——身處巨變浪潮之巔,以初心為舵,划槳向前,讓技術的光芒照亮而非灼傷這個世界。 (新智元)
Lovart + Nano Banana Pro,這才是PPT 的王炸組合!
你是不是跟我一樣,最近為了找個好用的AI PPT 工具,快把市面上的產品試了個遍?一會刷到某個智能體,一會兒又是Gamma。前陣子很多人被NotebookLM 刷屏,我也跟著去湊了熱鬧。但講真,用下來總覺得差點意思。直到這兩天我試了這個工具,我敢說:真正的AI PPT 終結者可能真的出現了!廢話少說,直接看效果。這是我用它為《小王子》做的一份分享PPT:圖:Lovart 產生的PPT說實話,第一眼看到成品時我有點被驚豔到了。這種繪本感的視覺享受,無論是給老闆匯報還是做個人分享,拿出手的一瞬間,段位就拉開了,對吧?在PPT 這個塊,我一直有個「歪理」:視覺美感往往大於內容。因為如果第一眼抓不住人,內容再好也是白搭。這就是Lovart,它最硬核的地方:它不僅請來了Nano Banana Pro 這種等級的超強外援,還反手給它疊滿了'超級武器'的Buff。01|視覺美感:拒絕“AI 抽卡”,審美直接拉滿以前用AI 做PPT 像是在“抽卡”,出的圖能不能用全看運氣。但Lovart 輸出的畫面非常專業。就算你只是給個簡單的提示詞,它給出的視覺方案也完全在審美點上。例如我試過的第一種:國家地理史詩攝影。圖:Lovart 產生的國家地理史詩攝影風PPT說實話,出來的成品真的讓人歎為觀止,感覺每一頁都是一幀高品質的電影畫面,那種大片的厚重感和細膩質感,每一張圖都能直接拿來當壁紙。如果你想走年輕活潑的路線,可以試試下面這種孟菲斯多巴胺風格。圖:孟菲斯多巴胺風格PPT撞色大膽,充滿躍動感,這種視覺衝擊力極強的風格,相信會受到很多年輕人的喜歡,拿去做創意提案瞬間就能抓住眼球。當然,還有我們最親切的中國風。圖:中國風PPT這種水墨感一出來,高級感直接拉滿。它最牛的地方在於不只是堆砌素材,連文案都會跟著風格變,裡面甚至藏著「道法自然」、「安土重遷」這種哲學意境。是真的有靈魂。當然,不只是好看,這些內容的總結、提煉也都是由它自己完成的,可以說非常強大。看到這兒你可能會說:“這不都是Nano Banana Pro 的功勞嗎?Lovart 自己到底有啥亮眼的?”說實話,剛開始我也這麼想。但深度體驗之後,我發現自己錯了。正是因為下面這幾個「殺手鐧」等級的優勢,才讓我覺得它——而不是現在大火的NotebookLM——才是真正的AI PPT 終結者。02|40頁+長篇幅:終於不用再手動「續命」了很多朋友吹爆NotebookLM,它確實很牛,但有個致命傷:生成的PPT 不能超過15 頁。這對咱們打工人來說太難受了,一個稍微大點的匯報,15 頁那夠寫?Lovart 就大方多了,生成40 頁以上都完全沒有壓力。圖:Lovart 產生的30 頁PPT例如為這本書《智人之上》產生一個30 頁的讀書分享PPT,也就幾分鐘的事兒。所以說,對於咱們這種動輒要做幾十頁深度報告的人來說,Lovart 這種「量大管飽」的屬性真的太解壓了。再也不用為了湊頁數分好幾次折騰,這種一氣呵成的感覺,才是大項目該有的效率。03|全程可編輯:它是「活」的,不是死圖!這可能是我最想給Lovart 點讚的地方。NotebookLM 另一個讓我頭大的點是:產生的PPT 是「死」的,基本上就是一張張大圖。我真的因為它產生的一份PPT 文字有瑕疵,在PS 裡面摳了4 個小時。而Lovart 的所有元素都是可編輯的。文字寫得不滿意?直接改。佈局覺得擠?拖動一下。圖:Lovart 方便的修改文字和佈局它最神奇的是這個Touch Edit 功能。例如我覺得畫面裡的這張圖不錯,但想給人物換個圍巾顏色:圖:Lovart 的Touch Edit 功能這種指那改那的編輯,非常有效率,也非常完美:圖:透過TouchEdit 修改了圍巾顏色他甚至能換單頁的風格:圖:在Lovart 中修改單頁PPT 的風格一個簡單的提示詞:改成線稿風格,一頁PPT 就完美的改好了:圖:通過Lovart 風格修改前後的對比這種“掌控感”,才是AI 工具該有的樣子。關於這些高級玩法,我之前的文章裡有詳細教學,感興趣可以翻翻。04| 到底怎麼用?在Lovart 裡做PPT 簡單到什麼程度?頭腦空空時: 告訴它一個想法,它會自己聯網搜尋,幫你把邏輯和大綱都寫好。圖:僅透過提示詞來產生一份PPT材料一大堆時: 直接扔進一堆配件(支援多個PDF檔案哦),它能瞬間消化並吐出一份精美的PPT。圖:Lovart 根據附件來產生PPT我們在提示詞裡面可以簡單到一句話,也可以具體到規定頁數、風格、每一頁的內容。比如下面這樣:請基於《人類簡史》製作15頁的'新中式'意境風格PPT。 視覺風格: 東方禪意美學。採用水墨質感、宣紙背景紋理。色彩以黛青、硃砂紅、墨黑為主。裝飾元素使用留白、印章、遠山、雲紋。標題使用書法體,正文使用宋體。 內容大綱: > 用中國哲學的視角重新解讀:P1: 封頁(水墨意境);P2: 簡史總覽;P3-P5: 認知篇(道法自然與虛構世界);P6-P8: 耕織篇(農業的羈絆);P10-P12: 大同紀元(天下 3:P4);歸宿:天人之際的思考。 要求: 文案風格帶有一點詞章氣息,優雅而深邃。出來的效果,真的會讓你覺得它是有「靈魂」的。One More Thing:拯救「丑PPT」的終極殺手鐧最後,必須分享一個大驚喜:Lovart 還能直接修改現有PPT 的風格!很多時候我們手上已經有一份內容改了80 遍的匯報稿,但排版實在太「班」了,沒法拿去見大老闆。這個時候,你只需要把這份PPT(PDF 格式)丟給Lovart,然後告訴它:“幫我把這份策劃案改成賈伯斯最愛的Apple Keynote 風格。”圖:現有的「丑」PPT瞬間!那種土裡土氣的PPT 就變身成了高級感十足的發佈會現場。圖:Lovart 一句話改之後的PPT這個功能,真的能幫大家在年底匯報裡省下大把的掉髮時間。最後的話說實話,AI 工具層出不窮,但我一直在找那種「懂人心、有審美、不給使用者添麻煩」的產品。Lovart 這種強大的Agent 邏輯+ Nano Banana Pro宇宙級的生圖能力+ 極高的編輯自由度,目前看來,確實是AI PPT 圈子裡的最佳解決方案了。眼看就到年底了,復盤會、年度計畫、總結匯報都在路上了吧?別再為調格式、找素材這種瑣事熬到凌晨了。還猶豫啥?這種「降維打擊」的神器,趁現在知道的人還不多,趕緊去試試,驚豔一下你的同事們:👉 http://lovart.ai (建議收藏備用)對了,說到AI 生圖,這兩天OpenAI 的GPT Image 1.5也已經上線到Lovart 了。 (AI範兒)
GPT Image 1.5 全面實測:被 Nano Banana Pro 吊打!
就在今天,OpenAI 終於把它的 GPT Image 1.5 抬上來了!說實話,在 Nano Banana Pro(以下簡稱 NBP)已經強到“殺瘋了”的今天,我甚至是帶著一種“挑刺”的心態點開更新的:OpenAI,你這次到底能不能行?是能一舉奪回王座,還是像上次一樣“發佈會猛如虎,實測二百五”?話不多說,我肝了一個通宵,直接上號,殘酷實測走起。精準修圖,誰更聽話?大家玩 AI 繪圖最頭疼的是什麼?肯定是“一改就廢”。明明只想給小姐姐換個髮型,結果圖一出來,臉都給換了,這誰受得了?OpenAI 的宣傳片倒是吹得很神:指那打那,完美保留角色形象。但這畢竟是“買家秀”,實際上手效果如何?為了不冤枉它,我特地隨機選了一個路人人物做測試。圖:測試用素材圖先來個最簡單的:換髮型提示詞:基於這張圖片,將人物的髮型改為齊肩的紅棕色波波頭(Bob頭)。請務必保留頭髮被風吹起的動態效果和陽光照射在頭髮上的強烈高光。人物的面部表情、衣服、姿勢和背景需完全保持不變。GPT 跑出來的第一張圖,乍一看還真不錯:人物沒變,衣服沒變,髮型也確實換成了波波頭,看著挺自然。但俗話說得好,不怕不識貨,就怕貨比貨。我們拉出隔壁的 NBP 來跑同樣的詞:圖:對比圖坦率講,把兩張圖放在我的 4K 大屏上一對比,差距瞬間就出來了:GPT 這邊: 臉部光影明顯偏暗,甚至出現了肉眼可見的色斑(這是什麼鬼?),皮膚質感有點髒。NBP 這邊: 皮膚通透,頭髮上的高光處理得非常細膩,明顯贏麻了。第一局結論: 雖然 GPT 聽懂了指令,但在畫質和光影細節上,NBP 依然略勝一籌。多圖一致性,二哈能拆家嗎?再來試個更有難度的:換裝 + 多圖融合。提示詞:將人物身上的藍色條紋襯衫取代為一件米白色的亞麻質地休閒西裝外套,內搭一件白色圓領T恤。保持她倚靠欄杆的姿勢不變。新的衣物上需要有符合當前強烈側光照明的自然褶皺和陰影。人物頭部和背景保持不變。我試著給人物換了套衣服,GPT 的表現依然穩定,形象保持得很好。但在光影邏輯上,還是老毛病——有點“平”。不過這裡 NBP把原圖的道具給搞丟了……接著,我開始給它上點難度了:多圖融合。我找了兩張女生圖和一張動物圖,要求它們融合在一起。圖:多圖融合示例圖:多圖融合對比不得不承認,這個環節我更喜歡 GPT。它的融合能力簡直驚豔,整張圖片的質感非常像一張真實的電影劇照,那種“無聊和疲憊”的氛圍感拿捏得死死的。而 NBP 這邊……怎麼說呢?它的背景單一了點,但實際上它更好的遵循了提示詞,沙發凌亂,連狗都是疲憊的。現在,加入調皮的二哈試試。提示詞:保持這兩位女士和動物的姿勢、表情完全不變。在背景中加入幾隻正在瘋狂拆家的哈士奇,它們正在撕咬沙發靠墊和跑來跑去,讓場面看起來極其混亂。這個部分我更喜歡 NBP了,GPT 加入的二哈過於瘋狂,感覺有點失真。但他們在多輪編輯中,都很好的延續了之前的形象和風格。既然融合能力不錯,那拿來做電影海報怎麼樣?我讓它設計一張 1950 年代好萊塢風格的電影海報,標題叫《THE ALGORITHM》(演算法)。效果直接驚豔到我了:圖:英文海報利用這三張圖片(兩張女生和一張動物),製作一張 1950 年代好萊塢黃金時期的電影海報。電影標題: 海報上方用復古的大寫襯線體展示電影名為 "THE ALGORITHM" (演算法)。角色設定: 將兩位女生設計為經典的黑色電影(Film Noir)女主角,穿著優雅的絲綢晚禮服,波浪捲發。將那隻動物設計為她們神秘的同伴,脖子上戴著鑽石項圈。演職員表: 在底部加入演職員文字:Starring: The Neural Sisters (左) & The Beast (右)Directed by: Sam AltmanProduced by: OpenAI Studios風格: 手繪海報質感,強烈的明暗對比(Chiaroscuro),略帶褪色的特藝彩色(Technicolor)色調。不得不說,這海報挺有感覺的,但似乎人物形像已經對不上了。而且,這個尺度怎麼突然提升了。用中文發現,不僅尺度小了,字幾乎是災難。。(這個後面具體講)圖:GPT 的中文海報變態指令遵循,誰腦子更好使?GPT Image 1.5 有很強的指令遵循能力。來給它一點難度:6x6 網格挑戰。這非常考驗 AI 的邏輯理解能力。我要求它嚴格按照 6 行 6 列的格式,每一個格子裡畫出指定的東西(比如菠蘿、宇航員、Wi-Fi圖示等)。提示詞:畫一個 6x6 的網格 建立一個 6 列 x 6 行的網格,網格內容如下:第一排:希臘字母Ω、一個熱氣球、菠蘿、宇航員、水晶球、變色龍 第二排:一隻蜘蛛、老式懷錶、淋浴噴頭、望遠鏡、一隻孔雀、一張藏寶圖 第三行:一枚紀念幣、一面圓鏡子、一杯冒熱氣的咖啡、“希望”一詞、滑板、字母K 第四排:洗衣機、遊樂園代幣、Wi-Fi圖示、一支口紅、螳螂、棒球帽 第五行:電源圖示、數字8、紅色鑽石、樂高積木人、火烈鳥、維京頭盔 第6行:一隻橘貓、滅火器、一個錨、遊戲手把、捲紙、數字88除了中文,它做得的確完美。看看 NBP,雖然中文對了。但這那裡是 6x6 宮格?數學是體育老師教的嗎?格局完全亂了。圖:NBP 生成的 6 宮格這一局:GPT 險勝,贏在邏輯,輸在中文。真正的硬傷是文字大家都知道,NBP 幾乎徹底的解決了文字難題,不論中英文。OpenAI 也不甘示弱,給了一個非常複雜的多字的案例,但其實 NBP 設定完整得更好。圖:文書處理對比而換成中文,GPT 就是個災難,不過這點官方自己是承認的。圖:GPT Image 1.5 的中文處理換成 NBP,那幾乎是吊打。圖:NBP 的中文處理即便是簡單點的中文,GPT 也無法勝任。圖:GPT Image 1.5 的中文處理NBP 幾乎完美。圖:NBP 的中文處理NBP 讓資訊圖流行了起來,OpenAI 也提供了類似案例。但不論從效果還是從文書處理,GPT 都是被按在地上摩擦的。圖:資訊圖對比除了升級了圖片功能之外,OpenAI 還新增了一個類似於“範本”的功能,選擇某個範本,然後再選一張自己的圖片,就可以生成這個範本對應的風格。圖:GPT 提供範本選擇通過固定一些常用的風格,很方便那些不想到處找提示詞或者不會寫提示詞的朋友。最終結論:這就是一場單方面的“碾壓”測到這,我不裝了,直接攤牌:GPT Image 1.5 目前全面落後於 Nano Banana Pro。雖然在剛才的某些特定 Case 裡(比如那個瘋狂的二哈),GPT 偶爾能靈光一閃,但這阻擋不了它整體被 NBP 甩在身後的事實。為什麼這麼說?除了前面看到的這些,NBP 還有很多讓創作者無法拒絕的“殺手鐧”,比如:畫質硬傷: NBP 早就支援 2K、4K 直出了,而 GPT Image 1.5 居然還在 1K 解析度裡玩泥巴。這對於要幹活的人來說,簡直是致命傷。資訊差優勢: NBP 可以結合聯網搜尋,直接生成帶即時資料的資訊圖,這點 GPT 目前完全做不到。至於大家關心的速度……官方發佈會吹噓說“速度快了 4 倍”。我實測跑了一個通宵,說實話,完全沒感覺到。體感上甚至比 NBP 還要慢一點。OpenAI 這波“畫餅”,我給負分。當然,它也不是一無是處。它唯一讓我覺得“真香”的功能,是多工並行——前一張圖還在轉圈圈,我可以立馬發下一條指令,不用乾等著。這一點,NBP 確實該學學(NBP 目前只能單線程排隊)。現在的 GPT Image 1.5 給我的感覺,更像是一個氣喘吁吁跟在 NBP 屁股後面追趕的“優等生”,早已不是那個曾經引領時代的“神”了。(其實 GPT 5.2 追趕 Gemini 3 Pro 也類似)所以,我的建議很直接:如果你是普通玩家: 想嘗鮮,可以玩玩。如果你要幹活、出圖、接商單: 請老老實實續費 Nano Banana Pro,它依然是目前的最佳選擇。OpenAI 這一波?還得回爐再練練。 (AI范兒)
太魔幻了!剛剛OpenAI發佈GPT Image 1.5:Nano Banana Pro 王座不保
Sam Altman 反擊Google,OpenAI新旗艦圖像模型來了就在剛剛,OpenAI正式發佈了新版ChatGPT Images,由全新的旗艦圖像生成模型GPT Image 1.5驅動這一次,無論是從零開始生成圖像,還是編輯現有照片,新模型都能實現“所想即所得”核心升級主要體現在三個方面:精準修圖且保留細節、指令遵循能力更強,以及生成速度提升了4倍我立馬就測試了兩個手頭的case:ChatGPT Images vs Nano Banana Pro提示詞這是一張室內人像寫真風格的照片,整體偏向乾淨、柔和、略帶時尚感與親密氛圍,下面我從構圖、人物、服裝、姿態、光線與整體氣質幾個層面來忠實、細緻地描述:⸻一、整體構圖與環境•豎幅構圖,人物幾乎佔據畫面主體,視覺重心集中在人物的上半身與面部。•場景是一個簡約現代的室內空間,背景為大面積純白色牆面,乾淨、無雜物,刻意弱化環境存在感。•人物坐在一張黑色皮質沙發上,沙發表麵線條硬朗,與人物柔和的膚色形成對比。•沙發上鋪著一塊黑白相間的長毛絨毯,毛感明顯,增加了畫面的層次與觸感⸻二、人物外貌與面部特徵•人物為一位年輕女性,整體氣質偏清秀、柔和。•膚色白皙均勻,質感細膩,幾乎看不到明顯瑕疵。•臉型偏鵝蛋臉,下頜線柔和,沒有明顯棱角。•五官比例協調:•眼睛偏大,雙眼皮清晰,眼神平靜、直視鏡頭,帶有一點若有若無的疏離感。•鼻樑挺直但不誇張。•嘴唇偏小,唇色自然,表情克制,沒有明顯微笑。•整體妝容為清淡自然妝:•底妝輕薄•眼妝乾淨,沒有明顯煙燻或誇張色彩•唇妝偏裸色或淡粉色⸻三、髮型與髮質•長直髮,髮色為偏暖的深棕色。•中分髮型,分縫筆直,左右對稱。•頭髮順直、貼合,發尾自然垂落至腰部附近,整體顯得柔順、有光澤。•發量看起來較多,線條乾淨,沒有明顯卷度。⸻四、服裝細節•穿著一件白色蕾絲連衣裙:•無袖設計,露出肩部與手臂•V 領或淺領口,領口處有精細的蕾絲花紋•裙身貼合身體曲線,但並不誇張•裙襬長度偏短,停留在大腿中上部•面料為蕾絲+內襯結構,蕾絲紋理清晰,風格偏女性化、柔美。⸻五、姿態與肢體語言•人物以側坐姿坐在沙發上:•上半身微微前傾•一隻手自然搭在沙發或毛毯上•另一隻手輕放在腿部•雙腿彎曲收攏,姿態顯得放鬆而內斂。•整體肢體語言偏安靜、克制、略帶親密但不過分張揚。⸻六、光線與攝影風格•使用的是柔和的棚拍或自然補光:•光線均勻,沒有強烈陰影•面部和身體輪廓被柔化•色溫偏中性或微暖,突出膚色的細膩感。•背景虛化不明顯,但因背景簡潔,人物自然突出。•整體風格接近商業人像 / 時尚寫真 / AI 或高精修風格。⸻七、整體氣質總結這張照片給人的感覺是:•乾淨•精緻•柔和•帶一點冷靜與疏離•偏“被觀看”的人像美學,而非抓拍或紀實2k解析度這是生成的效果:第二個case:提示詞:{描述:一幅超逼真的 3D 等距視角傑作,描繪了一幅展開在光滑深色木桌上的魔法地圖。地圖繪製在一張古老而飽經風霜的羊皮紙捲軸上,但畫面中的景色以立體模型的形式躍然紙上。巍峨的岩石山脈,白雪皚皚的山峰,穿透縷縷白雲;一條蜿蜒的碧綠河流從中心流過;山麓覆蓋著茂密蔥鬱的松林。羊皮紙邊緣呈鋸齒狀,左側飾有精美的復古書法,角落則繪有羅盤玫瑰圖案。畫面採用溫暖的電影級光照,焦點清晰,紋理細節豐富,2K 解析度,以奇幻冒險為主題。"negative_prompt": "扁平的,2D 的,簡單的圖畫,模糊的,低品質的,扭曲的,有水印的,糟糕的人體結構,文字疊加,顆粒感強的",“參數”: {"aspect_ratio": "2:3","風格": "電影級 3D 渲染","檢視": "等距"  }}生成的效果:看起來ChatGPT Images指令遵循的要比NBR要強(人像),審美能力還不好說目前ChatGPT Images 在 大模型競技場圖像排名第一接下來幾天我會大量測試,看看實際表現與此同時,GPT Image 1.5 API也已同步上線,價格相比上一代直降20%下面我們一起來看ChatGPT Images具體細節精準修圖:指那打那,細節不丟新版模型最大的亮點在於對使用者意圖的精準還原當使用者要求對上傳的圖片進行編輯時,模型能夠更可靠地遵循指令,僅改變使用者要求的部分。而在這一過程中,原圖中光線、構圖以及人物外觀等關鍵要素,都能在輸入、輸出及後續的連續編輯中保持一致這就意味著,ChatGPT現在不僅能完成更實用的照片修飾,還能實現更逼真的服裝和髮型試穿。同時,它支援在保留原圖精髓的基礎上,進行風格化濾鏡和概念轉換具體到編輯操作上,模型擅長多種類型,包括:• 加入(Adding)• 刪減(Subtracting)• 組合(Combining)• 混合(Blending)• 移位(Transposing)簡而言之,使用者可以在得到想要的改變的同時,不丟失讓圖片顯得特別的那些原始細節。OpenAI稱其為“口袋裡的創意工作室”創意與能力的全面進化除了修圖,GPT Image 1.5在創意生成和基礎能力上也有顯著提升:創意變換:模型可以通過改變和加入元素(如文字和佈局)來實現創意轉化,同時保留重要細節,這個和Nano Banana Pro表現感覺差不多更強的指令遵循:相比初代版本,新模型能更可靠地執行指令。這不僅利於精準修圖,也能在生成複雜的原創構圖時,按預期保留元素間的關係文字渲染能力強悍升級:在處理更密集、更小的文字時,模型表現強悍畫質提升:在渲染許多小人臉以及整體輸出的自然度等方面,質量均有改進全新互動:無需提示詞也能玩為了讓圖像探索更快捷,OpenAI在ChatGPT中推出了專門的Images首頁使用者可以通過移動應用的側邊欄或chatgpt.com訪問該頁面。這裡不再強制要求使用者編寫提示詞,而是內建了數十種預設的濾鏡和提示,幫助使用者快速啟動靈感這些預設內容會定期更新,以反映當下的流行趨勢API上線:更便宜,更適合企業對於開發者和企業使用者,GPT Image 1.5 API也已同步開放。相比GPT Image 1,新版API在圖像輸入和輸出的價格上便宜了20%,這意味著在相同預算下可以進行更多的生成和迭代。在能力上,API版本繼承了ChatGPT Images的所有改進,特別是在圖像一致性方面表現更強:能夠跨編輯保持品牌Logo和關鍵視覺元素的一致性非常適合行銷材料製作(如圖形和Logo創作)適用於電商團隊,可基於單一源圖像生成完整的產品目錄(包括不同變體、場景和角度)目前,已有創意工具、電商、行銷軟體等領域的企業開始使用GPT Image 1.5。最後ChatGPT Images的新版本即日起向全球所有ChatGPT使用者和API使用者推送。該功能跨模型工作,使用者在使用時無需進行額外選擇至於今年早些時候推出的舊版ChatGPT Images,將作為一個自訂GPT(Custom GPT)保留,供有需要的使用者繼續使用 (AI寒武紀)